其他
eBay | 实践Hadoop任务的性能翻倍之路
API调用响应时间的百分位值
服务调用关系
数据库操作
为什么要优化
数据集:CAL每天的日志量为PB量级,并以每年70%的速度增加,CAL收集的日志来自不同的应用程序,其日志的内容也有所不同。有些属于数据库操作密集型,有些则包含着复杂的嵌套事务,且每个应用程序日志的数据量差异大。
计算资源:CAL使用的是共享Hadoop集群。优化前,CAL Hadoop job需要使用约50%整个集群的资源才能完成。CAL报告Hadoop job在一天中,其中有9个小时只能使用19%的集群计算资源,不能在这段时间获得资源执行的job将会等待在队列中,直到这9小时结束,它才能有80%的集群计算资源可以使用。
成功率:CAL MapReduce job的成功率仅92.5%。
eBay团队如何优化
:Map任务执行时间 :Map任务个数 :Reduce任务执行时间 : Map任务个数
GC时间
尽量避免Mapper和Reducer的数据倾斜
优化算法
: MR job中的Mapper容器内存大小 : Reducer容器内存大小 :MR job中的应用程序管理器容器内存大小 : MR job中,Mapper任务个数 :Reducer任务的个数
减少Map或Reduce任务个数
减少Map或Reduce任务容器大小
优化job的执行时间
解决方案
优化结果
总 结
——END——
文章不错?点个【在看】吧! 👇